"""
RDD成员方法 distinct()
    对数据进行去重计算
"""

from my_utils import spark_util

sc = spark_util.get_spark_context()

# 添加数据并进行数据去重
distinct_rdd = sc.parallelize([1, 2, 3, 3, 4, 2, 3, 5, 5, 6, 7, 6, 8, 9, 9]).distinct()

# 打印结果
print(distinct_rdd.collect())
# 关闭spark
sc.stop()
